import re
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import warnings; warnings.filterwarnings(action='ignore')


from sklearn.impute import KNNImputer
from plotly import graph_objects as go
from folium import Map, Choropleth
from folium import Map, Marker # импортируем карту и маркер
from folium.plugins import MarkerCluster # импортируем кластер
from folium import Map, Choropleth # импортируем карту и хороплет

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8406 entries, 0 to 8405
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   name               8406 non-null   object 
 1   category           8406 non-null   object 
 2   address            8406 non-null   object 
 3   district           8406 non-null   object 
 4   hours              7870 non-null   object 
 5   lat                8406 non-null   float64
 6   lng                8406 non-null   float64
 7   rating             8406 non-null   float64
 8   price              3315 non-null   object 
 9   avg_bill           3816 non-null   object 
 10  middle_avg_bill    3149 non-null   float64
 11  middle_coffee_cup  535 non-null    float64
 12  chain              8406 non-null   int64  
 13  seats              4795 non-null   float64
dtypes: float64(6), int64(1), object(7)
memory usage: 919.5+ KB

0

name                    0
category                0
address                 0
district                0
hours                 536
lat                     0
lng                     0
rating                  0
price                5091
avg_bill             4590
middle_avg_bill      5257
middle_coffee_cup    7871
chain                   0
seats                3611
dtype: int64

Количество заведений: 5614


import re
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import warnings; warnings.filterwarnings(action='ignore')


from sklearn.impute import KNNImputer
from plotly import graph_objects as go
from folium import Map, Choropleth
from folium import Map, Marker # импортируем карту и маркер
from folium.plugins import MarkerCluster # импортируем кластер
from folium import Map, Choropleth # импортируем карту и хороплет


# снимаем ограничение на количество столбцов
pd.set_option('display.max_columns', None)

# снимаем ограничение на ширину столбцов
pd.set_option('display.max_colwidth', None)

# игнорируем предупреждения
pd.set_option('chained_assignment', None)

# выставляем ограничение на показ знаков после запятой
pd.options.display.float_format = '{:,.2f}'.format

# устанавливаем стиль графиков
sns.set_style('whitegrid')
sns.set(rc={"figure.dpi":200, 'savefig.dpi':300})
sns.set_context('notebook')  
sns.set_style("ticks")


try:
    data = pd.read_csv('/datasets/moscow_places.csv')
except:
    data = pd.read_csv('moscow_places.csv')


display(data.head(), data.sample(5), data.tail())


data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8406 entries, 0 to 8405
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   name               8406 non-null   object 
 1   category           8406 non-null   object 
 2   address            8406 non-null   object 
 3   district           8406 non-null   object 
 4   hours              7870 non-null   object 
 5   lat                8406 non-null   float64
 6   lng                8406 non-null   float64
 7   rating             8406 non-null   float64
 8   price              3315 non-null   object 
 9   avg_bill           3816 non-null   object 
 10  middle_avg_bill    3149 non-null   float64
 11  middle_coffee_cup  535 non-null    float64
 12  chain              8406 non-null   int64  
 13  seats              4795 non-null   float64
dtypes: float64(6), int64(1), object(7)
memory usage: 919.5+ KB


data.duplicated().sum()

0


data.isna().sum()

name                    0
category                0
address                 0
district                0
hours                 536
lat                     0
lng                     0
rating                  0
price                5091
avg_bill             4590
middle_avg_bill      5257
middle_coffee_cup    7871
chain                   0
seats                3611
dtype: int64


pd.DataFrame(round(data.isna().mean()*100,)).style.background_gradient('coolwarm')


print('Количество заведений:', data.name.nunique())

Количество заведений: 5614


print('Количество заведений:', data.name.nunique())

Количество заведений: 5614


data.category.value_counts()


data.seats.describe()


# Данные выглядят корректно, приведем весь текст в нижний регистр.
for col in ['name', 'address', 'avg_bill']:
    data[col] = data[col].str.lower()
data.head()


# Данные выглядят корректно, приведем весь текст в нижний регистр.
for col in ['name', 'address', 'avg_bill']:
    data[col] = data[col].str.lower()
data.head()


# Воссполним пропуски колонок 'avg_bill', 'price', 'hours'
for column in ['avg_bill', 'price', 'hours']:
    data[column] = data[column].fillna('н/д')


len(data.query('~middle_avg_bill.isna()'))


len(data.query('~middle_avg_bill.isna()'))


len(data.loc[data['avg_bill'].apply(lambda x: x.find('средний счёт')) != -1])


imputer = KNNImputer()
middle_avg_bill_2d = data['middle_avg_bill'].values.reshape(-1, 1)
data['middle_avg_bill'] = pd.DataFrame(data=imputer.fit_transform(middle_avg_bill_2d),
                           columns=['middle_avg_bill'],
                           index=data.index)


imputer = KNNImputer()
middle_avg_bill_2d = data['middle_avg_bill'].values.reshape(-1, 1)
data['middle_avg_bill'] = pd.DataFrame(data=imputer.fit_transform(middle_avg_bill_2d),
                           columns=['middle_avg_bill'],
                           index=data.index)


middle_avg_bill_2d = data['middle_coffee_cup'].values.reshape(-1, 1)
data['middle_coffee_cup'] = pd.DataFrame(data=imputer.fit_transform(middle_avg_bill_2d),
                           columns=['middle_coffee_cup'],
                           index=data.index)


len(data.query('~middle_coffee_cup.isna()'))


len(data.query('~middle_coffee_cup.isna()'))


len(data.loc[data['avg_bill'].apply(lambda x: x.find('цена чашки капучино')) != -1])


#data['middle_coffee_cup'] = data['middle_coffee_cup'].fillna(0)


#data['middle_coffee_cup'] = data['middle_coffee_cup'].fillna(0)


#data['seats'] = data['seats'].fillna(-1)


# Проверим обработку пропусков.
data.isna().sum()


# Посмотрим на дубликаты
data.loc[data.duplicated(subset=['name', 'address'], keep=False)]


data.drop_duplicates(subset=['name', 'address'], keep='first', inplace=True)


data.drop_duplicates(subset=['name', 'address'], keep='first', inplace=True)


data.duplicated(subset=['name', 'address']).sum()


data['category'].unique()


data['district'].unique()


data.groupby('name') \
    .agg(count=('name', 'count')) \
    .sort_values(by='count', ascending=False) \
    .reset_index() \
    .head(10) \
    .style.background_gradient('coolwarm')


data.query('(name == "кафе" or name == "ресторан" or name == "столовая") and chain == 1')


data.query('(name == "кафе" or name == "ресторан" or name == "столовая") and chain == 1')


data['dup_name'] = data['name'].str.split(' ').str[0]
data.duplicated(subset=['dup_name', 'category', 'address']).sum()


data['dup_name'] = data['name'].str.split(' ').str[0]
data.duplicated(subset=['dup_name', 'category', 'address']).sum()


data.loc[data.duplicated(subset=['dup_name', 'category', 'address'], keep=False)]


data = data.drop(data[(data['name'] == "чебуреки манты") & (data['address'] == "Москва, Правобережная улица, 1Б")].index)
data = data.drop(data[(data['name'] == "чайхана халал") & (data['address'] == "Москва, Смольная улица, 24Г, стр. 6")].index)
data = data.drop(data[(data['name'] == "dragon bubble tea") & (data['address'] == "Москва, Щёлковское шоссе, вл75")].index)
data = data.drop(data[(data['name'] == "баку 24 часа") & (data['address'] == "Москва, Монтажная улица, 9, стр. 1")].index)
data = data.drop(data[(data['name'] == "udcкафе upside down cake") & (data['address'] == "Москва, Кутузовский проспект, 57")].index)
data = data.drop(data[(data['name'] == "vip wok and sushi") & (data['address'] == "Москва, Можайское шоссе, 45Б")].index)
data = data.drop(data[(data['name'] == "от мяса до рыбы") & (data['address'] == "Москва, улица Вавилова, 64/1с1")].index)
data = data.drop(data[(data['name'] == "чайхана дружба") & (data['address'] == "Москва, Большая Очаковская улица, 47А, стр. 1")].index)
data = data.drop(data[(data['name'] == "estetica cafe") & (data['address'] == "Москва, Кировоградская улица, 15")].index)
data = data.drop(data[(data['name'] == "кафе") & (data['address'] == "Москва, Ореховый бульвар, 28")].index)
data.loc[data.duplicated(subset=['dup_name', 'category', 'address'], keep=False)]


data = data.drop(data[(data['name'] == "чебуреки манты") & (data['address'] == "Москва, Правобережная улица, 1Б")].index)
data = data.drop(data[(data['name'] == "чайхана халал") & (data['address'] == "Москва, Смольная улица, 24Г, стр. 6")].index)
data = data.drop(data[(data['name'] == "dragon bubble tea") & (data['address'] == "Москва, Щёлковское шоссе, вл75")].index)
data = data.drop(data[(data['name'] == "баку 24 часа") & (data['address'] == "Москва, Монтажная улица, 9, стр. 1")].index)
data = data.drop(data[(data['name'] == "udcкафе upside down cake") & (data['address'] == "Москва, Кутузовский проспект, 57")].index)
data = data.drop(data[(data['name'] == "vip wok and sushi") & (data['address'] == "Москва, Можайское шоссе, 45Б")].index)
data = data.drop(data[(data['name'] == "от мяса до рыбы") & (data['address'] == "Москва, улица Вавилова, 64/1с1")].index)
data = data.drop(data[(data['name'] == "чайхана дружба") & (data['address'] == "Москва, Большая Очаковская улица, 47А, стр. 1")].index)
data = data.drop(data[(data['name'] == "estetica cafe") & (data['address'] == "Москва, Кировоградская улица, 15")].index)
data = data.drop(data[(data['name'] == "кафе") & (data['address'] == "Москва, Ореховый бульвар, 28")].index)
data.loc[data.duplicated(subset=['dup_name', 'category', 'address'], keep=False)]


data = data.drop(['dup_name'], axis=1)


# Изменим тип данных на int
#for col in ['middle_avg_bill', 'middle_coffee_cup', 'seats']:
    #data[col] = data[col].astype('int')


def make_acronym(phrase):
    phrase = phrase.replace('-', ' ').split()
    acronym = ""
    for word in phrase:
        acronym = acronym + word[0].upper()
    return acronym

# Добавим акронимы к районам
data['district_short'] = data['district'].apply(make_acronym)


category_name = data.groupby('category')['name'].count().reset_index()
category_name.columns = ['category', 'count']
category_name.style.background_gradient('coolwarm')


#fig = go.Figure(data=[go.Bar(x=category_name['category'], y=category_name['count'])], 
#               layout=go.Layout(title=go.layout.Title(text="Столбчатая диаграмма категорий заведений"),
#                                xaxis=go.layout.XAxis(title=go.layout.xaxis.Title(text="Категории")),
#                                yaxis=go.layout.YAxis(title=go.layout.yaxis.Title(text="Количество заведений")), 
#                                template='plotly_white'))

#fig.show()


fig = px.bar(category_name, 
             x='category', 
             y='count', 
             text='count',
             title='Количество объектов общественного питания по видам',
             template='plotly_white'
            )
fig.update_layout(xaxis_title='Категории заведений',
                  yaxis_title='Количество заведений',
                  xaxis={'categoryorder':'total descending'})
fig.show()


seats = data.query('seats != -1') \
            .groupby('category') \
            .agg(seats_median=('seats', 'median')) \
            .sort_values(by='seats_median', ascending=False) \
            .reset_index()
seats['seats_median'] = seats['seats_median'].astype('int')


seats = data.query('seats != -1') \
            .groupby('category') \
            .agg(seats_median=('seats', 'median')) \
            .sort_values(by='seats_median', ascending=False) \
            .reset_index()
seats['seats_median'] = seats['seats_median'].astype('int')


# строим столбчатую диаграмму 
fig = px.bar(seats.sort_values(by='seats_median', ascending=True), # загружаем данные и заново их сортируем
             x='seats_median', # указываем столбец с данными для оси X
             y='category', # указываем столбец с данными для оси Y
             text='seats_median',
             template='plotly_white'# добавляем аргумент, который отобразит текст с информацией
                                # о количестве объявлений внутри столбца графика
            )
# оформляем график
fig.update_layout(title='Количество посадочных мест в объектах общественного питания по категориям',
                   xaxis_title='Количество посадочных мест',
                   yaxis_title='Категория объекта общественного питания')
fig.show() # выводим график


chain_category = ['сетевые', 'несетевые']
values = [len(data.query('chain == 1')), len(data.query('chain == 0'))]

fig = go.Figure(data=[go.Pie(labels=chain_category, values=values)])
fig.update_layout(title='Cоотношение сетевых и несетевых заведений общественного питания', 
                  width=800, 
                  height=500,
                  annotations=[dict(x=1.15, 
                                    y=1.05,
                                    text='Категория',
                                    showarrow=False)])
fig.show()


chain_category = ['сетевые', 'несетевые']
values = [len(data.query('chain == 1')), len(data.query('chain == 0'))]

fig = go.Figure(data=[go.Pie(labels=chain_category, values=values)])
fig.update_layout(title='Cоотношение сетевых и несетевых заведений общественного питания', 
                  width=800, 
                  height=500,
                  annotations=[dict(x=1.15, 
                                    y=1.05,
                                    text='Категория',
                                    showarrow=False)])
fig.show()


# Посмотрим какие категории заведений чаще являются сетевыми
chain_objects = data.groupby(['category', 'chain'])['name'].count().reset_index()
chain_objects.columns = ['object_type', 'chain', 'count']
chain_objects['chain'] = chain_objects['chain'].astype(object)
chain_objects = chain_objects.sort_values(['count', 'chain'])
chain_objects


# Посмотрим какие категории заведений чаще являются сетевыми
chain_objects = data.groupby(['category', 'chain'])['name'].count().reset_index()
chain_objects.columns = ['object_type', 'chain', 'count']
chain_objects['chain'] = chain_objects['chain'].astype(object)
chain_objects = chain_objects.sort_values(['count', 'chain'])
chain_objects


fig = px.bar(chain_objects,
             x='count',
             y='object_type',
             text='count',
             template='plotly_white',                   
             color='chain',
             category_orders={"chain": ["сетевой", "несетевой"]}
            )
# оформляем график
fig.update_layout(title='Соотношение сетевых заведений',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название категорий',
                 )
fig.show()


df_chain = data[data['chain'] == 1]
top_15 = df_chain.groupby('name').agg({'rating' : 'median', 'category' : pd.Series.mode, 'district' : 'count'})
top_15 = top_15.rename(columns={'district':'count'})
top_15 = top_15.sort_values('count', ascending = False).reset_index().head(15)
top_15


df_chain = data[data['chain'] == 1]
top_15 = df_chain.groupby('name').agg({'rating' : 'median', 'category' : pd.Series.mode, 'district' : 'count'})
top_15 = top_15.rename(columns={'district':'count'})
top_15 = top_15.sort_values('count', ascending = False).reset_index().head(15)
top_15


fig = px.bar(top_15,
             x='count',
             y='name',
             text='count',
             template='plotly_white', 
             color='name'
            )
# оформляем график
fig.update_layout(title='ТОП-15 популярных сетей в Москве',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название заведений',
                   showlegend=False)
fig.show()


print('Всего заведений в Топ-15:', top_15['count'].sum())


print('Всего заведений в Топ-15:', top_15['count'].sum())


fig = px.bar(top_15,
             x='count',
             y='category',
             template='plotly_white',                 
             color='category'
            )
# оформляем график
fig.update_layout(title='Количество заведений каждой категории по районам',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название категорий',
                   yaxis={'categoryorder':'total ascending'}
                 )
fig.show()


district_chain = df_chain.groupby(['district', 'category', 'name']).agg({'rating' : 'median', 'address' : 'count'})
district_chain = district_chain.sort_values('rating', ascending = False).reset_index()
district_chain = district_chain.rename(columns={'address':'count'})
district_chain = district_chain[district_chain['name'].isin(top_15['name'])]
district_chain.head()


fig = px.bar(district_chain,
             x='count',
             y='district',
             template='plotly_white',                    
             color='category'
            )
# оформляем график
fig.update_layout(title='Количество заведений каждой категории по районам',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название района',
                   yaxis={'categoryorder':'total ascending'}
                 )
fig.show()


print('Общее количество заведений в датасете:',data['name'].count())


district_chain_df = data.groupby(['district', 'category']).agg({'rating' : 'median', 'name' : 'count'})
district_chain_df = district_chain_df.sort_values('rating', ascending = False).reset_index()
district_chain_df = district_chain_df.rename(columns={'name':'count'})
district_chain_df.head()


fig = px.bar(district_chain_df,
             x='count',
             y='district',
             template='plotly_white',                    
             color='category'
            )
# оформляем график
fig.update_layout(title='Количество заведений каждой категории по районам',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название района',
                   yaxis={'categoryorder':'total ascending'}
                 )
fig.show()


rating_category = data.groupby('category').agg({'rating' : 'mean'}).round(2).sort_values('rating', ascending = False).reset_index()
rating_category


rating_category = data.groupby('category').agg({'rating' : 'mean'}).round(2).sort_values('rating', ascending = False).reset_index()
rating_category


fig = px.bar(rating_category,
             x='rating',
             y='category',
             text='rating',
             template='plotly_white', 
             color='category'                   
            )
# оформляем график
fig.update_layout(title='Распределение средних рейтингов по категориям заведений',
                   xaxis_title='Рейтинг',
                   yaxis_title='Название категорий')
fig.update_xaxes(range=[4, 4.5])
fig.show()


rating_df = data.groupby('district', as_index=False)['rating'].agg('mean').round(2)
rating_df


rating_df = data.groupby('district', as_index=False)['rating'].agg('mean').round(2)
rating_df


# читаем файл и сохраняем в переменной
with open('/datasets/admin_level_geomap.geojson', 'r') as f:
    geo_json = json.load(f)


# загружаем JSON-файл с границами округов Москвы
state_geo = '/datasets/admin_level_geomap.geojson'
# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=rating_df,
    columns=['district', 'rating'],
    key_on='feature.name',
    #fill_color='YlGn',
    #fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по районам',
).add_to(m)

# выводим карту
m


# moscow_lat - широта центра Москвы, moscow_lng - долгота центра Москвы
moscow_lat, moscow_lng = 55.751244, 37.618423

# создаём карту Москвы
m = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
data.apply(create_clusters, axis=1)

# выводим карту
m


words = ['проезд','шоссе','улица','переулок','микрорайон','мкад','проспект','пр.',
         'площадь','аллея','бульвар','набережная','сквер','тупик','линия','территория',
         'квартал','просек','парк','мост']
 
str_pat = r".*,\s*\b([^,]*?(?:{})\b[^,]*)[,$]+".format("|".join(words))
 
data['street'] = data['address'].str.extract(str_pat, flags=re.I)


streets_moscow = data[data['street'].notnull()]
top15_streets = streets_moscow['street'].value_counts().reset_index().head(15)
top15_streets.columns = ['street_name', 'count']
top15_streets


#создадим таблицу с названиями улиц и категорий
streets_category = data.groupby(['street', 'category'])['name'].count().reset_index()
streets_category.columns = ['street_name', 'category', 'count']
streets_category.sort_values('count', ascending=False)


#оставим только улицы из топ 15
streets15_category = streets_category[streets_category['street_name'].isin(top15_streets['street_name'])]
streets15_category


fig = px.bar(streets15_category,
             x='count',
             y='street_name',
             template='plotly_white',                   
             color='category'
            )
# оформляем график
fig.update_layout(title='Количество заведений каждой категории по районам',
                   xaxis_title='Количество заведений',
                   yaxis_title='Название улиц',
                   yaxis={'categoryorder':'total ascending'}
                 )
fig.show()


one_cafe = data['street'].value_counts().reset_index()
one_cafe.columns = ['street_name', 'cafe_count']
one_cafe = one_cafe[one_cafe['cafe_count'] == 1]
one_cafe


#добавим районы
streets1_category = streets_category[streets_category['street_name'].isin(one_cafe['street_name'])]
streets1_category = streets1_category.groupby('category')['street_name'].count()
streets1_category


median_bill = data.groupby('district')['middle_avg_bill'].median().reset_index()


# создаём карту Москвы
m2 = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=median_bill,
    columns=['district', 'middle_avg_bill'],
    key_on='feature.name',
    legend_name='Средний чек заведений по районам',
).add_to(m2)

# выводим карту
m2


cofe_df = data[data['category'] == 'кофейня']
print('Всего коффен:', cofe_df.shape[0])


cofe_df = data[data['category'] == 'кофейня']
print('Всего коффен:', cofe_df.shape[0])


cofe_df = data[data['category'] == 'кофейня']
print('Всего коффен:', cofe_df.shape[0])


cofe_df = data[data['category'] == 'кофейня']
print('Всего коффен:', cofe_df.shape[0])


# создаём карту Москвы
m3 = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m3)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
cofe_df.apply(create_clusters, axis=1)

# выводим карту
m3


coffee = data.query('hours == "ежедневно, круглосуточно" & category == "кофейня"')
coffee_house = data.query('hours == "ежедневно, круглосуточно" & category == "кофейня"') \
                   .groupby(by=['district_short'], as_index=False) \
                   .agg(count=('name', 'count'))
print(f'Количество кругосуточных кофеен: {coffee_house["count"].sum()}')


fig = px.bar(
    data_frame=coffee_house.sort_values('count',ascending=False),
    x='district_short', y='count', color='district_short', text='count',
    title='Количество кофеен 24/7 по районам',
    labels={'district_short': 'Район', 'count': 'Количество кафе'},
    height=450
)

fig.update_layout(
    legend_title='Часы работы',
    template='plotly_white'
)
fig.show()


# создаём карту Москвы
m4 = Map(location=[moscow_lat, moscow_lng], zoom_start=10)
# создаём пустой кластер, добавляем его на карту
marker_cluster = MarkerCluster().add_to(m4)

# пишем функцию, которая принимает строку датафрейма,
# создаёт маркер в текущей точке и добавляет его в кластер marker_cluster
def create_clusters(row):
    Marker(
        [row['lat'], row['lng']],
        popup=f"{row['name']} {row['rating']}",
    ).add_to(marker_cluster)

# применяем функцию create_clusters() к каждой строке датафрейма
coffee.apply(create_clusters, axis=1)

# выводим карту
m4


rating_cofe = cofe_df.groupby('district', as_index=False)['rating'].agg('mean').round(2).sort_values('rating', ascending=False)
rating_cofe


rating_cofe = cofe_df.groupby('district', as_index=False)['rating'].agg('mean').round(2).sort_values('rating', ascending=False)
rating_cofe


# создаём карту Москвы
m5 = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=rating_cofe,
    columns=['district', 'rating'],
    key_on='feature.name',
    #fill_color='YlGn',
    #fill_opacity=0.8,
    legend_name='Средний рейтинг заведений по районам',
).add_to(m5)

# выводим карту
m5


middle_cofe = cofe_df.groupby('district', as_index=False)['middle_coffee_cup'].agg('mean').round().sort_values('middle_coffee_cup', ascending=False)
display(middle_cofe)
print('Средняя стоимость чашки кофе в Москве:', middle_cofe['middle_coffee_cup'].mean().round())


middle_cofe = cofe_df.groupby('district', as_index=False)['middle_coffee_cup'].agg('mean').round().sort_values('middle_coffee_cup', ascending=False)
display(middle_cofe)
print('Средняя стоимость чашки кофе в Москве:', middle_cofe['middle_coffee_cup'].mean().round())


# создаём карту Москвы
m6 = Map(location=[moscow_lat, moscow_lng], zoom_start=10)

# создаём хороплет с помощью конструктора Choropleth и добавляем его на карту
Choropleth(
    geo_data=state_geo,
    data=middle_cofe,
    columns=['district', 'middle_coffee_cup'],
    key_on='feature.name',
    #fill_color='YlGn',
    #fill_opacity=0.8,
    legend_name='Средний цена чашки кофе по районам',
).add_to(m6)

# выводим карту
m6

	name	category	address	district	hours	lat	lng	rating	price	avg_bill	middle_avg_bill	middle_coffee_cup	chain	seats
0	WoWфли	кафе	Москва, улица Дыбенко, 7/1	Северный административный округ	ежедневно, 10:00–22:00	55.88	37.48	5.00	NaN	NaN	NaN	NaN	0	NaN
1	Четыре комнаты	ресторан	Москва, улица Дыбенко, 36, корп. 1	Северный административный округ	ежедневно, 10:00–22:00	55.88	37.48	4.50	выше среднего	Средний счёт:1500–1600 ₽	1,550.00	NaN	0	4.00
2	Хазри	кафе	Москва, Клязьминская улица, 15	Северный административный округ	пн-чт 11:00–02:00; пт,сб 11:00–05:00; вс 11:00–02:00	55.89	37.53	4.60	средние	Средний счёт:от 1000 ₽	1,000.00	NaN	0	45.00
3	Dormouse Coffee Shop	кофейня	Москва, улица Маршала Федоренко, 12	Северный административный округ	ежедневно, 09:00–22:00	55.88	37.49	5.00	NaN	Цена чашки капучино:155–185 ₽	NaN	170.00	0	NaN
4	Иль Марко	пиццерия	Москва, Правобережная улица, 1Б	Северный административный округ	ежедневно, 10:00–22:00	55.88	37.45	5.00	средние	Средний счёт:400–600 ₽	500.00	NaN	1	148.00

	name	category	address	district	hours	lat	lng	rating	price	avg_bill	middle_avg_bill	middle_coffee_cup	chain	seats
6227	Хлеб с маслом	булочная	Москва, улица Вавилова, 3	Южный административный округ	ежедневно, 09:00–22:00	55.71	37.59	4.80	NaN	NaN	NaN	NaN	1	320.00
4621	ФО Point	ресторан	Москва, улица Сретенка, 1с1	Центральный административный округ	пн-пт 11:00–23:00; сб,вс 12:00–23:00	55.77	37.63	4.40	средние	Средний счёт:500–1000 ₽	750.00	NaN	0	NaN
1820	Ещё одна собачка	кофейня	Москва, улица Дубки, 2	Северный административный округ	ежедневно, 09:00–21:00	55.82	37.57	4.70	NaN	Цена чашки капучино:180–250 ₽	NaN	215.00	0	NaN
6831	Столовая	кафе	Москва, Профсоюзная улица, 83А	Юго-Западный административный округ	ежедневно, 10:00–18:00	55.65	37.53	4.40	NaN	NaN	NaN	NaN	0	50.00
922	Хей Мам	пиццерия	Москва, улица Коминтерна, 15	Северо-Восточный административный округ	ежедневно, 10:00–23:00	55.87	37.69	4.60	NaN	NaN	NaN	NaN	0	NaN

	name	category	address	district	hours	lat	lng	rating	price	avg_bill	middle_avg_bill	middle_coffee_cup	chain	seats
8401	Суши Мания	кафе	Москва, Профсоюзная улица, 56	Юго-Западный административный округ	ежедневно, 09:00–02:00	55.67	37.55	4.40	NaN	NaN	NaN	NaN	0	86.00
8402	Миславнес	кафе	Москва, Пролетарский проспект, 19, корп. 1	Южный административный округ	ежедневно, 08:00–22:00	55.64	37.66	4.80	NaN	NaN	NaN	NaN	0	150.00
8403	Самовар	кафе	Москва, Люблинская улица, 112А, стр. 1	Юго-Восточный административный округ	ежедневно, круглосуточно	55.65	37.74	3.90	NaN	Средний счёт:от 150 ₽	150.00	NaN	0	150.00
8404	Чайхана Sabr	кафе	Москва, Люблинская улица, 112А, стр. 1	Юго-Восточный административный округ	ежедневно, круглосуточно	55.65	37.74	4.20	NaN	NaN	NaN	NaN	1	150.00
8405	Kebab Time	кафе	Москва, Россошанский проезд, 6	Южный административный округ	ежедневно, круглосуточно	55.60	37.60	3.90	NaN	NaN	NaN	NaN	0	12.00

Рынок заведений общественного питания Москвы¶

Загрузим данные и изучим общую информацию¶

Предобработка данных¶

Анализ данных¶

Категории заведений¶

Исследование количества посадочных мест в местах по категориям.¶

Cоотношение сетевых и несетевых заведений в датасете¶

Категории сетевых заведений общественного питания¶

Топ-15 популярных сетей в Москве¶

Какие административные районы Москвы присутствуют в датасете?¶

Средние рейтинги по категориям¶

Фоновая картограмма (хороплет) со средним рейтингом заведений каждого района¶

Заведения датасета на карте¶

Топ-15 улиц по количеству заведений¶

Значения средних чеков заведений¶

Вывод¶

Детализируем исследование: открытие кофейни¶

Количество кофеен¶

Время работы¶

Рейтинги кофеен¶

Cтоимость чашки капучино¶

Рекомендация¶

Презентация¶

	0
name	0.000000
category	0.000000
address	0.000000
district	0.000000
hours	6.000000
lat	0.000000
lng	0.000000
rating	0.000000
price	61.000000
avg_bill	55.000000
middle_avg_bill	63.000000
middle_coffee_cup	94.000000
chain	0.000000
seats	43.000000